12. September 2025Deutsch

Entdecken Sie Clustered Forward Rendering in WebGL, eine leistungsstarke Technik für die Echtzeit-Rendering von Hunderten dynamischer Lichter. Lernen Sie die Kernkonzepte und Optimierungsstrategien.

Leistungssteigerung freischalten: Ein tiefer Einblick in WebGL Clustered Forward Rendering und Licht-Indizierungs-Optimierung

In der Welt der Echtzeit-3D-Grafik im Web war das Rendern zahlreicher dynamischer Lichter schon immer eine erhebliche Herausforderung in Bezug auf die Leistung. Als Entwickler streben wir danach, reichhaltigere, immersivere Szenen zu erstellen, aber jede zusätzliche Lichtquelle kann die Rechenkosten exponentiell erhöhen und WebGL an seine Grenzen bringen. Traditionelle Rendering-Techniken erzwingen oft eine schwierige Wahl: Abstriche bei der visuellen Wiedergabetreue zugunsten der Leistung oder Akzeptanz geringerer Bildraten. Aber was wäre, wenn es eine Möglichkeit gäbe, das Beste aus beiden Welten zu haben?

Hier kommt Clustered Forward Rendering, auch bekannt als Forward+, ins Spiel. Diese leistungsstarke Technik bietet eine ausgeklügelte Lösung, die die Einfachheit und Materialflexibilität des traditionellen Forward Rendering mit der Lichteffizienz von Deferred Shading kombiniert. Es ermöglicht uns, Szenen mit Hunderten oder sogar Tausenden von dynamischen Lichtern zu rendern und gleichzeitig interaktive Bildraten beizubehalten.

Dieser Artikel bietet eine umfassende Untersuchung von Clustered Forward Rendering in einem WebGL-Kontext. Wir werden die Kernkonzepte sezieren, von der Unterteilung des Sichtfelds bis zum Culling von Lichtern, und uns intensiv auf die kritischste Optimierung konzentrieren: die Daten-Pipeline zur Lichtindizierung. Dies ist der Mechanismus, der effizient kommuniziert, welche Lichter welche Teile des Bildschirms vom CPU zum Fragment-Shader der GPU beeinflussen.

Die Rendering-Landschaft: Forward vs. Deferred

Um zu verstehen, warum Clustered Rendering so effektiv ist, müssen wir zunächst die Einschränkungen der Methoden verstehen, die ihm vorausgingen.

Traditionelles Forward Rendering

Dies ist der direkteste Rendering-Ansatz. Für jedes Objekt verarbeitet der Vertex-Shader seine Vertices, und der Fragment-Shader berechnet die endgültige Farbe für jedes Pixel. Wenn es um die Beleuchtung geht, durchläuft der Fragment-Shader typischerweise jedes einzelne Licht in der Szene und akkumuliert seinen Beitrag. Das Kernproblem ist seine schlechte Skalierung. Die Berechnungskosten sind ungefähr proportional zu (Anzahl der Fragmente) x (Anzahl der Lichter). Mit nur ein paar Dutzend Lichtern kann die Leistung einbrechen, da jedes Pixel jedes Licht redundant überprüft, selbst diejenigen, die Meilen entfernt oder hinter einer Wand liegen.

Deferred Shading

Deferred Shading wurde entwickelt, um genau dieses Problem zu lösen. Es entkoppelt Geometrie und Beleuchtung in einem Zwei-Pass-Prozess:

Geometrie-Pass: Die Geometrie der Szene wird in mehrere Vollbild-Texturen gerendert, die zusammen als G-Buffer bezeichnet werden. Diese Texturen speichern Daten wie Position, Normalen und Materialeigenschaften (z. B. Albedo, Rauheit) für jedes Pixel.
Beleuchtungs-Pass: Ein Vollbild-Quadrat wird gezeichnet. Für jedes Pixel samplet der Fragment-Shader den G-Buffer, um die Oberflächeneigenschaften zu rekonstruieren und dann die Beleuchtung zu berechnen. Der Hauptvorteil besteht darin, dass die Beleuchtung nur einmal pro Pixel berechnet wird und es einfach ist zu bestimmen, welche Lichter dieses Pixel basierend auf seiner Weltposition beeinflussen.

Obwohl es für Szenen mit vielen Lichtern sehr effizient ist, hat Deferred Shading seine eigenen Nachteile, insbesondere für WebGL. Es hat hohe Bandbreitenanforderungen aufgrund des G-Buffers, kämpft mit Transparenz (was einen separaten Forward-Rendering-Pass erfordert) und erschwert die Verwendung von Anti-Aliasing-Techniken wie MSAA.

Der Fall für einen Mittelweg: Forward+

Clustered Forward Rendering bietet einen eleganten Kompromiss. Es behält die Single-Pass-Natur und die Materialflexibilität des Forward Rendering bei, beinhaltet aber einen Vorverarbeitungsschritt, um die Anzahl der Lichtberechnungen pro Fragment drastisch zu reduzieren. Es vermeidet den schweren G-Buffer und ist somit speicherfreundlicher und von Haus aus mit Transparenz und MSAA kompatibel.

Kernkonzepte des Clustered Forward Rendering

Die zentrale Idee des Clustered Rendering ist es, intelligenter zu sein, welche Lichter wir überprüfen. Anstatt dass jedes Pixel jedes Licht überprüft, können wir im Voraus bestimmen, welche Lichter nahe genug sind, um möglicherweise einen Bereich des Bildschirms zu beeinflussen, und die Pixel in diesem Bereich nur diese Lichter überprüfen lassen.

Dies wird erreicht, indem das Sichtfeld der Kamera in ein 3D-Raster aus kleineren Volumen, den sogenannten Clustern (oder Kacheln), unterteilt wird.

Der Gesamtprozess kann in vier Hauptphasen unterteilt werden:

1. Cluster-Raster-Erstellung: Definieren und konstruieren Sie ein 3D-Raster, das das Sichtfeld partitioniert. Dieses Raster ist im View-Space fixiert und bewegt sich mit der Kamera.
2. Lichtzuweisung (Culling): Bestimmen Sie für jeden Cluster im Raster eine Liste aller Lichter, deren Einflussvolumen sich mit ihm schneidet. Dies ist der entscheidende Culling-Schritt.
3. Lichtindizierung: Dies ist unser Fokus. Wir verpacken die Ergebnisse des Lichtzuweisungsschritts in eine kompakte Datenstruktur, die effizient an die GPU gesendet und vom Fragment-Shader gelesen werden kann.
4. Shading: Während des Haupt-Rendering-Passes ermittelt der Fragment-Shader zuerst, zu welchem Cluster er gehört. Dann verwendet er die Lichtindizierungsdaten, um die Liste der relevanten Lichter für diesen Cluster abzurufen und Beleuchtungsberechnungen *nur* für diese kleine Teilmenge von Lichtern durchzuführen.

Diagramm, das ein Kamera-Frustum zeigt, das in ein 3D-Raster aus Clustern unterteilt ist, wobei Lichter den Clustern zugewiesen sind, die sie schneiden.

Tief eintauchen: Aufbau des Cluster-Rasters

Die Grundlage der Technik ist ein gut strukturiertes Raster. Die hier getroffenen Entscheidungen wirken sich direkt auf die Culling-Effizienz und die Leistung aus.

Festlegen der Rasterabmessungen

Das Raster wird durch seine Auflösung entlang der X-, Y- und Z-Achsen definiert (z. B. 16x9x24 Cluster). Die Wahl der Dimensionen ist ein Kompromiss:

Höhere Auflösung (mehr Cluster): Führt zu einem engeren, genaueren Licht-Culling. Weniger Lichter werden pro Cluster zugewiesen, was weniger Arbeit für den Fragment-Shader bedeutet. Dies erhöht jedoch den Overhead des Lichtzuweisungsschritts auf der CPU und den Speicherbedarf der Cluster-Datenstrukturen.
Geringere Auflösung (weniger Cluster): Reduziert den CPU-seitigen und Speicher-Overhead, führt aber zu gröberem Culling. Jeder Cluster ist größer, so dass er sich mit mehr Lichtern schneidet, was zu mehr Arbeit im Fragment-Shader führt.

Eine gängige Praxis ist es, die X- und Y-Dimensionen an das Seitenverhältnis des Bildschirms zu binden, z. B. indem der Bildschirm in 16x9-Kacheln unterteilt wird. Die Z-Dimension ist oft die kritischste, um sie zu optimieren.

Logarithmische Z-Slicing: Eine kritische Optimierung

Wenn wir die Tiefe (Z-Achse) des Frustums in lineare Slices aufteilen, stoßen wir auf ein Problem im Zusammenhang mit der perspektivischen Projektion. Eine große Menge an geometrischen Details konzentriert sich in der Nähe der Kamera, während weit entfernte Objekte nur sehr wenige Pixel einnehmen. Ein linearer Z-Split würde große, ungenaue Cluster in der Nähe der Kamera (wo Präzision am meisten benötigt wird) und winzige, verschwenderische Cluster in der Ferne erzeugen.

Die Lösung ist logarithmisches (oder exponentielles) Z-Slicing. Dies erzeugt kleinere, präzisere Cluster in der Nähe der Kamera und progressiv größere Cluster weiter entfernt, wodurch die Clusterverteilung an die Funktionsweise der perspektivischen Projektion angepasst wird. Dies gewährleistet eine gleichmäßigere Anzahl von Fragmenten pro Cluster und führt zu einem viel effektiveren Culling.

Eine Formel zur Berechnung der Tiefe `z` für den i-ten Slice von insgesamt `N` Slices, wobei die Near-Plane `n` und die Far-Plane `f` gegeben sind, kann wie folgt ausgedrückt werden:

z_i = n * (f/n)^(i/N)

Diese Formel stellt sicher, dass das Verhältnis der aufeinanderfolgenden Slice-Tiefen konstant ist, wodurch die gewünschte exponentielle Verteilung erzeugt wird.

Das Herzstück der Sache: Licht-Culling und Indizierung

Hier geschieht die Magie. Sobald unser Raster definiert ist, müssen wir herausfinden, welche Lichter welche Cluster beeinflussen, und diese Informationen dann für die GPU verpacken. In WebGL wird diese Licht-Culling-Logik typischerweise mit JavaScript auf der CPU für jeden Frame ausgeführt, in dem sich Lichter oder die Kamera bewegen.

Licht-Cluster-Schnitttests

Der Prozess ist konzeptionell einfach: Durchlaufen Sie jedes Licht und testen Sie es auf Schnittpunkte mit dem Begrenzungsvolumen jedes Clusters. Das Begrenzungsvolumen für einen Cluster ist selbst ein Frustum. Häufige Tests sind:

Punktlichter: Werden als Kugeln behandelt. Der Test ist ein Kugel-Frustum-Schnitt.
Spot-Lichter: Werden als Kegel behandelt. Der Test ist ein Kegel-Frustum-Schnitt, der komplexer ist.
Direktionale Lichter: Diese werden oft so betrachtet, dass sie alles beeinflussen, daher werden sie typischerweise separat behandelt und nicht in den Culling-Prozess einbezogen.

Die effiziente Ausführung dieser Tests ist der Schlüssel. Nach diesem Schritt haben wir eine Zuordnung, möglicherweise in einem JavaScript-Array von Arrays, wie: clusterLights[clusterId] = [lightId1, lightId2, ...].

Die Herausforderung der Datenstruktur: Von der CPU zur GPU

Wie bekommen wir diese pro-Cluster-Lichtliste an den Fragment-Shader? Wir können nicht einfach ein Array variabler Länge übergeben. Der Shader benötigt eine vorhersehbare Möglichkeit, diese Daten nachzuschlagen. Hier kommt der Global Light List and Light Index List-Ansatz ins Spiel. Es ist eine elegante Methode, um unsere komplexe Datenstruktur in GPU-freundliche Texturen umzuwandeln.

Wir erstellen zwei primäre Datenstrukturen:

Eine Cluster-Informationen-Rastertextur: Dies ist eine 3D-Textur (oder eine 2D-Textur, die eine 3D-Textur emuliert), wobei jedes Texel einem Cluster in unserem Raster entspricht. Jedes Texel speichert zwei wichtige Informationen:
- Ein Offset: Dies ist der Startindex in unserer zweiten Datenstruktur (der Global Light List), an dem die Lichter für diesen Cluster beginnen.
- Ein Count: Dies ist die Anzahl der Lichter, die diesen Cluster beeinflussen.
Eine globale Lichtlistentextur: Dies ist eine einfache 1D-Liste (gespeichert in einer 2D-Textur), die eine verkettete Sequenz aller Lichtindizes für alle Cluster enthält.

Visualisierung des Datenflusses

Stellen wir uns ein einfaches Szenario vor:

Cluster 0 wird von Lichtern mit den Indizes [5, 12] beeinflusst.
Cluster 1 wird von Lichtern mit den Indizes [8, 5, 20] beeinflusst.
Cluster 2 wird vom Licht mit dem Index [7] beeinflusst.

Unsere Datenstrukturen auf der GPU würden so aussehen:

Globale Lichtliste: [5, 12, 8, 5, 20, 7, ...]

Cluster-Informationen-Raster:

Texel für Cluster 0: { offset: 0, count: 2 }
Texel für Cluster 1: { offset: 2, count: 3 }
Texel für Cluster 2: { offset: 5, count: 1 }

Mit diesem Setup kann jedes Fragment seinen Cluster bestimmen, ein Texel aus dem Cluster-Raster lesen, um einen Offset und eine Anzahl zu erhalten, und dann eine einfache Schleife ausführen, um seine spezifischen Lichter aus der globalen Lichtliste zu lesen.

Implementierung in WebGL & GLSL

Verbinden wir nun die Konzepte mit dem Code. Die Implementierung umfasst einen JavaScript-Teil für das Culling und die Datenvorbereitung sowie einen GLSL-Teil für das Shading.

Datenübertragung an die GPU (JavaScript)

Nachdem Sie das Light-Culling auf der CPU durchgeführt haben, verfügen Sie über Ihre Cluster-Rasterdaten (Offset/Count-Paare) und Ihre globale Lichtliste. Diese müssen jeden Frame auf die GPU hochgeladen werden.

Packen und Hochladen von Cluster-Daten: Erstellen Sie ein `Float32Array` oder `Uint32Array` für Ihre Cluster-Daten. Sie können den Offset und die Anzahl für jeden Cluster in die RG-Kanäle einer Textur packen. Verwenden Sie `gl.texImage2D`, um eine Textur zu erstellen, oder `gl.texSubImage2D`, um eine Textur mit diesen Daten zu aktualisieren. Dies ist Ihre Cluster-Informationen-Rastertextur.
Globale Lichtliste hochladen: Verflachen Sie Ihre Lichtindizes auf ähnliche Weise in ein `Uint32Array` und laden Sie sie in eine andere Textur hoch.
Lichteigenschaften hochladen: Alle Lichtdaten (Position, Farbe, Intensität, Radius usw.) sollten in einer großen Textur oder einem Uniform-Buffer-Objekt (UBO) gespeichert werden, um schnelle, indizierte Lookups vom Shader zu ermöglichen.

Die Fragment-Shader-Logik (GLSL)

Der Fragment-Shader ist der Ort, an dem die Leistungsgewinne realisiert werden. Hier ist die schrittweise Logik:

Schritt 1: Ermitteln des Cluster-Index des Fragments

Zuerst müssen wir wissen, in welchen Cluster das aktuelle Fragment fällt. Dies erfordert seine Position im View-Space.

            
// Uniforms, die Rasterinformationen bereitstellen
uniform vec3 u_gridDimensions; // z.B. vec3(16.0, 9.0, 24.0)
uniform vec2 u_screenDimensions;
uniform float u_nearPlane;
uniform float u_farPlane;

// Funktion zum Abrufen des Z-Slice-Index aus der View-Space-Tiefe
float getClusterZIndex(float viewZ) {
  // viewZ ist negativ, mache es positiv
  viewZ = -viewZ;
  // Die Umkehrung der logarithmischen Formel, die wir auf der CPU verwendet haben
  float slice = floor(log(viewZ / u_nearPlane) / log(u_farPlane / u_nearPlane) * u_gridDimensions.z);
  return slice;
}

// Hauptlogik zum Abrufen des 3D-Cluster-Index
vec3 getClusterIndex() {
  // Abrufen des X- und Y-Index aus den Bildschirmkoordinaten
  float clusterX = floor(gl_FragCoord.x / u_screenDimensions.x * u_gridDimensions.x);
  float clusterY = floor(gl_FragCoord.y / u_screenDimensions.y * u_gridDimensions.y);
  
  // Abrufen des Z-Index aus der Z-Position des Fragments im View-Space (v_viewPos.z)
  float clusterZ = getClusterZIndex(v_viewPos.z);

  return vec3(clusterX, clusterY, clusterZ);
}

Schritt 2: Cluster-Daten abrufen

Mithilfe des Cluster-Index sampeln wir unsere Cluster-Informationen-Rastertextur, um den Offset und die Anzahl für die Lichtliste dieses Fragments zu erhalten.

            
uniform sampler2D u_clusterTexture; // Textur zum Speichern von Offset und Anzahl

// ... in main() ...
vec3 clusterIndex = getClusterIndex();
// 3D-Index bei Bedarf in 2D-Texturkoordinate verflachen
vec2 clusterTexCoord = ...; 

vec2 lightData = texture2D(u_clusterTexture, clusterTexCoord).rg;
int offset = int(lightData.x);
int count = int(lightData.y);

Schritt 3: Schleife und Akkumulierung der Beleuchtung

Dies ist der letzte Schritt. Wir führen eine kurze, begrenzte Schleife aus. Für jede Iteration rufen wir einen Lichtindex aus der globalen Lichtliste ab und verwenden diesen Index dann, um die vollständigen Eigenschaften des Lichts abzurufen und seinen Beitrag zu berechnen.

            
uniform sampler2D u_globalLightIndexTexture;
uniform sampler2D u_lightPropertiesTexture; // UBO wäre besser

vec3 finalColor = vec3(0.0);

for (int i = 0; i < count; i++) {
  // 1. Abrufen des Index des zu verarbeitenden Lichts
  int lightIndex = int(texture2D(u_globalLightIndexTexture, vec2(float(offset + i), 0.0)).r);

  // 2. Die Eigenschaften des Lichts mit diesem Index abrufen
  Light currentLight = getLightProperties(lightIndex, u_lightPropertiesTexture);

  // 3. Den Beitrag dieses Lichts berechnen
  finalColor += calculateLight(currentLight, surfaceProperties, viewDir);
}

Und das ist es! Anstelle einer Schleife, die Hunderte von Malen ausgeführt wird, haben wir jetzt eine Schleife, die möglicherweise 5, 10 oder 30 Mal ausgeführt wird, abhängig von der Lichtdichte in diesem bestimmten Teil der Szene, was zu einer monumentalen Leistungsverbesserung führt.

Erweiterte Optimierungen und zukünftige Überlegungen

CPU vs. Compute: Der primäre Engpass dieser Technik in WebGL ist, dass das Licht-Culling auf der CPU in JavaScript stattfindet. Dies ist Single-Threaded und erfordert eine Datensynchronisierung mit der GPU bei jedem Frame. Die Ankunft von WebGPU ist ein Game-Changer. Seine Compute-Shader ermöglichen es, den gesamten Cluster-Erstellungs- und Licht-Culling-Prozess auf die GPU auszulagern, wodurch er parallel und um Größenordnungen schneller wird.
Speicherverwaltung: Achten Sie auf den Speicher, der von Ihren Datenstrukturen verwendet wird. Für ein 16x9x24-Raster (3.456 Cluster) und maximal beispielsweise 64 Lichter pro Cluster könnte die globale Lichtliste potenziell 221.184 Indizes enthalten. Die Optimierung Ihres Rasters und die Festlegung eines realistischen Maximums für Lichter pro Cluster ist unerlässlich.
Optimierung des Rasters: Es gibt keine einzelne magische Zahl für Rasterabmessungen. Die optimale Konfiguration hängt stark vom Inhalt Ihrer Szene, dem Kameraverhalten und der Zielhardware ab. Das Profiling und Experimentieren mit verschiedenen Rastergrößen sind entscheidend für das Erreichen der Spitzenleistung.

Fazit

Clustered Forward Rendering ist mehr als nur eine akademische Kuriosität; es ist eine praktische und leistungsstarke Lösung für ein bedeutendes Problem in der Echtzeit-Webgrafik. Durch die intelligente Unterteilung des View-Space und die Durchführung eines hochoptimierten Licht-Culling- und Indizierungsschritts wird die direkte Verbindung zwischen Lichtanzahl und Fragment-Shader-Kosten aufgebrochen.

Während es auf der CPU-Seite im Vergleich zum herkömmlichen Forward Rendering mehr Komplexität einführt, ist der Leistungsgewinn immens und ermöglicht reichhaltigere, dynamischere und visuell ansprechendere Erlebnisse direkt im Browser. Der Kern seines Erfolgs liegt in der effizienten Lichtindizierungs-Pipeline – der Brücke, die ein komplexes räumliches Problem in eine einfache, begrenzte Schleife auf der GPU umwandelt.

Da sich die Webplattform mit Technologien wie WebGPU weiterentwickelt, werden Techniken wie Clustered Forward Rendering nur noch zugänglicher und leistungsfähiger und verwischen die Grenzen zwischen nativen und webbasierten 3D-Anwendungen weiter.